人类视频运动转移(HVMT)的目的是鉴于源头的形象,生成了模仿驾驶人员运动的视频。 HVMT的现有方法主要利用生成对抗网络(GAN),以根据根据源人员图像和每个驾驶视频框架估计的流量来执行翘曲操作。但是,由于源头,量表和驾驶人员之间的巨大差异,这些方法始终会产生明显的人工制品。为了克服这些挑战,本文提出了基于gan的新型人类运动转移(远程移动)框架。为了产生逼真的动作,远遥采用了渐进的一代范式:它首先在没有基于流动的翘曲的情况下生成每个身体的零件,然后将所有零件变成驾驶运动的完整人。此外,为了保留自然的全球外观,我们设计了一个全球对齐模块,以根据其布局与驾驶员的规模和位置保持一致。此外,我们提出了一个纹理对准模块,以使人的每个部分都根据纹理的相似性对齐。最后,通过广泛的定量和定性实验,我们的远及以两个公共基准取得了最先进的结果。
translated by 谷歌翻译
虚拟现实(VR)技术通常用于娱乐应用中;但是,它也已在我们生活的更严重方面(例如安全)中部署在实际应用中。为了支持在危险行业工作的人们,VR可以确保操作员操纵标准化的任务并协作以应对潜在的风险。令人惊讶的是,很少的研究重点是人们如何在VR环境中进行协作。很少有研究注意运营商在其协作任务中的认知负荷。一旦任务要求变得复杂,许多研究人员将专注于优化相互作用界面的设计,以减少操作员的认知负载。这种方法可能是有价值的。但是,它实际上可以使操作员承受更重要的认知负担,并可能导致更多的错误和协作失败。在本文中,我们提出了一个新的协作VR系统,以支持在VR环境中工作的两个遥控器,以远程控制未螺旋的地面车辆。我们使用比较的实验来评估协作VR系统,重点是在任务和操作总数上花费的时间。我们的结果表明,在两人组中,操作过程中的过程和操作过程中的认知负荷总数明显低于单人组。我们的研究阐明了设计VR系统的启示,以支持有关远程运营商工作流程的协作工作,而不是简单地优化设计成果。
translated by 谷歌翻译
对抗性的例子揭示了神经网络的脆弱性和不明原因的性质。研究对抗性实例的辩护具有相当大的实际重要性。大多数逆势的例子,错误分类网络通常无法被人类不可检测。在本文中,我们提出了一种防御模型,将分类器培训成具有形状偏好的人类感知分类模型。包括纹理传输网络(TTN)和辅助防御生成的对冲网络(GAN)的所提出的模型被称为人类感知辅助防御GaN(had-GaN)。 TTN用于扩展清洁图像的纹理样本,并有助于分类器聚焦在其形状上。 GaN用于为模型形成培训框架并生成必要的图像。在MNIST,时尚 - MNIST和CIFAR10上进行的一系列实验表明,所提出的模型优于网络鲁棒性的最先进的防御方法。该模型还证明了对抗性实例的防御能力的显着改善。
translated by 谷歌翻译
In this work, we investigate improving the generalizability of GAN-generated image detectors by performing data augmentation in the fingerprint domain. Specifically, we first separate the fingerprints and contents of the GAN-generated images using an autoencoder based GAN fingerprint extractor, followed by random perturbations of the fingerprints. Then the original fingerprints are substituted with the perturbed fingerprints and added to the original contents, to produce images that are visually invariant but with distinct fingerprints. The perturbed images can successfully imitate images generated by different GANs to improve the generalization of the detectors, which is demonstrated by the spectra visualization. To our knowledge, we are the first to conduct data augmentation in the fingerprint domain. Our work explores a novel prospect that is distinct from previous works on spatial and frequency domain augmentation. Extensive cross-GAN experiments demonstrate the effectiveness of our method compared to the state-of-the-art methods in detecting fake images generated by unknown GANs.
translated by 谷歌翻译
Graphic User Interface (GUI) is facing great demand with the popularization and prosperity of mobile apps. Automatic UI code generation from UI design draft dramatically simplifies the development process. However, the nesting layer structure in the design draft affects the quality and usability of the generated code. Few existing GUI automated techniques detect and group the nested layers to improve the accessibility of generated code. In this paper, we proposed our UI Layers Group Detector as a vision-based method that automatically detects images (i.e., basic shapes and visual elements) and text layers that present the same semantic meanings. We propose two plug-in components, text fusion and box attention, that utilize text information from design drafts as a priori information for group localization. We construct a large-scale UI dataset for training and testing, and present a data augmentation approach to boost the detection performance. The experiment shows that the proposed method achieves a decent accuracy regarding layers grouping.
translated by 谷歌翻译
遥控传感器图像对象检测是地球观察的重要技术,可用于各种任务,例如森林火灾监测和海洋监测。尽管有很大的发展,但图像对象检测技术尽管有很大的发展,但由于小对象的像素有限,因此仍在努力处理遥控传感器图像和小规模对象。许多现有的研究表明,促进小物体检测的有效方法是引入空间环境。同时,最近对图像分类的研究表明,光谱卷积操作比空间域更有效地感知频域中的长期空间依赖性。受到这一观察的启发,我们提出了用于遥感对象检测的频率感知功能金字塔框架(FFPF),该框架由新型的频率感知重新NET(F-RESNET)和双侧光谱感知特征特征网络(BS-FPN(BS-FPN)组成(BS-FPN)(BS-FPN) )。具体而言,提出了F-Resnet通过将频域卷积插入主链的每个阶段,从而提取了小物体的更丰富特征来感知光谱上下文信息。据我们所知,这是第一项将频域卷积引入遥感对象检测任务的工作。此外,BSFPN旨在使用双边采样策略和跳过连接,以更好地对象在不同尺度上的对象特征的关联进行建模,以从F-Resnet中释放光谱上下文信息的潜力。进行了广泛的实验,以在光学遥感图像数据集(DIOR和DOTA)中进行对象检测。实验结果证明了我们方法的出色性能。它可以达到平均准确性(地图),没有任何技巧。
translated by 谷歌翻译
数据驱动的设计和创新是重复使用和提供宝贵和有用信息的过程。但是,现有的设计创新语义网络基于仅限于技术和科学信息的数据源。此外,现有研究仅在统计或语义关系上建立语义网络的边缘,这不太可能充分利用两种类型的关系中的好处,并发现设计创新的隐性知识。因此,我们构建了基于Wikipedia的语义网络Wikilink。 Wikilink引入了概念之间的统计重量和语义权重的合并重量,并开发了四种算法来启发新想法。进行评估实验,结果表明,该网络的特征是术语,关系和学科的高度覆盖范围,这证明了网络的有效性和实用性。然后,演示和案例研究结果表明,Wikilink可以作为概念设计创新的思想生成工具。 Wikilink的源代码和后端数据提供开源,供更多用户探索和构建。
translated by 谷歌翻译
虽然某些工作尝试从UI屏幕截图中智能生成前端代码,但在Sketch中使用UI设计草稿可能更方便,这是一种流行的UI设计软件,因为我们可以直接访问多模式UI信息,例如层,位置,位置,位置,位置,位置,,,,位置,位置,位置,,位置,位置,位置,位置,,位置,位置,位置,位置,位置,,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置类型大小和视觉图像。但是,如果所有这些层都参与了代码生成,则分散的层可能会降低代码质量,而不会合并为整个部分。在本文中,我们提出了一条管道,以自动合并碎片层。我们首先为UI草稿的图层树构造图表,并根据视觉特征和图形神经网络检测所有碎片层。然后,基于规则的算法旨在合并零碎的层。通过在新构建的数据集上的实验,我们的方法可以在UI设计草案中检索最碎片的层,并在检测任务中实现87%的准确性,并在简单且一般的情况下开发了后处理算法以聚集关联层。
translated by 谷歌翻译
Incorporating knowledge graph as side information has become a new trend in recommendation systems. Recent studies regard items as entities of a knowledge graph and leverage graph neural networks to assist item encoding, yet by considering each relation type individually. However, relation types are often too many and sometimes one relation type involves too few entities. We argue that it is not efficient nor effective to use every relation type for item encoding. In this paper, we propose a VRKG4Rec model (Virtual Relational Knowledge Graphs for Recommendation), which explicitly distinguish the influence of different relations for item representation learning. We first construct virtual relational graphs (VRKGs) by an unsupervised learning scheme. We also design a local weighted smoothing (LWS) mechanism for encoding nodes, which iteratively updates a node embedding only depending on the embedding of its own and its neighbors, but involve no additional training parameters. We also employ the LWS mechanism on a user-item bipartite graph for user representation learning, which utilizes encodings of items with relational knowledge to help training representations of users. Experiment results on two public datasets validate that our VRKG4Rec model outperforms the state-of-the-art methods. The implementations are available at https://github.com/lulu0913/VRKG4Rec.
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译